# coding: utf-8


def read_vocab(vocab_dir):
    """读取词汇表"""
    # words = open_file(vocab_dir).read().strip().split('\n')
    with open(vocab_dir) as fp:
        # 如果是py2 则每个值都转化为unicode
        words = [_.strip() for _ in fp.readlines()]
    word_to_id = dict(zip(words, range(len(words))))
    return words, word_to_id


def read_category():
    """读取分类目录，固定"""
    categories = categories = ['导线',
                            '杆塔',
                            '绝缘子',
                            '线材附件',
                            '光缆',
                            '电气设备材料、照明器材',
                            '电缆',
                            '金具',
                            '水泥及其制品',
                            '采暖及通风空调',
                            '道路桥梁专用材料',
                            '防腐防水材料',
                            '防火材料',
                            '加工件',
                            '周转材料',
                            '水设备',
                            '其他材料',
                            '消防器材',
                            '油料、化学制品',
                            '装配式构建筑物',
                            '装饰材料',
                            '黑色金属',
                            '阀门',
                            '塑料及橡胶制品',
                            '管件',
                            '轨道交通专用材料',
                            '园林绿化']

    cat_to_id = dict(zip(categories, range(len(categories))))

    return categories, cat_to_id



